智能论文笔记

Generalized Decoding for Pixel, Image, and Language

Xueyan Zou , Zi-Yi Dou , Jianwei Yang , Zhe Gan , Linjie Li , Chunyuan Li , Xiyang Dai , Harkirat Behl , Jianfeng Wang , Lu Yuan

分类：计算机视觉 | 自然语言处理

2022-12-21

We present X-Decoder, a generalized decoding model that can predict pixel-level segmentation and language tokens seamlessly. X-Decodert takes as input two types of queries: (i) generic non-semantic queries and (ii) semantic queries induced from text inputs, to decode different pixel-level and token-level outputs in the same semantic space. With such a novel design, X-Decoder is the first work that provides a unified way to support all types of image segmentation and a variety of vision-language (VL) tasks. Further, our design enables seamless interactions across tasks at different granularities and brings mutual benefits by learning a common and rich pixel-level visual-semantic understanding space, without any pseudo-labeling. After pretraining on a mixed set of a limited amount of segmentation data and millions of image-text pairs, X-Decoder exhibits strong transferability to a wide range of downstream tasks in both zero-shot and finetuning settings. Notably, it achieves (1) state-of-the-art results on open-vocabulary segmentation and referring segmentation on eight datasets; (2) better or competitive finetuned performance to other generalist and specialist models on segmentation and VL tasks; and (3) flexibility for efficient finetuning and novel task composition (e.g., referring captioning and image editing). Code, demo, video, and visualization are available at https://x-decoder-vl.github.io.

translated by 谷歌翻译

培训计算机视觉模型通常需要在各种场景配置和属性集中收集和标记大量图像。这个过程非常耗时，并且要确保捕获的数据分布映射到应用程序方案的目标域，这是一项挑战。最近，综合数据已成为解决这两个问题的一种方式。但是，现有方法要么要求人类专家手动调整每个场景属性，要么使用几乎无法控制的自动方法；这需要渲染大量的随机数据变化，这很慢，对于目标域通常是次优的。我们介绍了第一个完全可区分的合成数据管道，该数据管道使用具有目标应用程序损耗函数的闭环中的神经辐射场（NERF）。我们的方法可以在没有人工的情况下生成数据，以最大程度地提高目标任务的准确性。我们说明了我们方法对合成和现实对象检测任务的有效性。我们还引入了一个新的“ YCB野外”数据集和基准标准，该数据集和基准为对象检测提供了一种在现实世界环境中具有多种姿势的测试方案。

translated by 谷歌翻译

尽管机器人学课程在高等教育方面已建立，但这些课程通常专注于理论，有时缺乏对开发，部署和将软件应用于真实硬件的技术的系统覆盖。此外，大多数用于机器人教学的硬件平台是针对中学水平的年轻学生的低级玩具。为了解决这一差距，开发了一个自动驾驶汽车硬件平台，称为第1 f1 f1tth，用于教授自动驾驶系统。本文介绍了以“赛车”和替换考试的竞赛为主题的各种教育水平教学模块和软件堆栈。第1辆车提供了一个模块化硬件平台及其相关软件，用于教授自动驾驶算法的基础知识。从基本的反应方法到高级计划算法，教学模块通过使用第1辆车的自动驾驶来增强学生的计算思维。第1辆汽车填补了研究平台和低端玩具车之间的空白，并提供了学习自主系统中主题的动手经验。多年的四所大学为他们的学期本科和研究生课程采用了教学模块。学生反馈用于分析第1个平台的有效性。超过80％的学生强烈同意，硬件平台和模块大大激发了他们的学习，而超过70％的学生强烈同意，硬件增强了他们对学科的理解。调查结果表明，超过80％的学生强烈同意竞争激励他们参加课程。

translated by 谷歌翻译

自主赛车的主要挑战之一是在复杂的赛车课程中设计用于运动计划的算法。先前已经提出了端到端轨迹合成，其中根据赛车的摄像头图像计算自我车辆的轨迹。这是在使用行为克隆技术的监督学习设置中完成的。在本文中，我们通过引入差异贝叶斯过滤（DBF）来解决轨迹合成行为克隆方法的局限性，该贝叶斯过滤（DBF）使用概率B \'ezier曲线作为推断基于贝叶斯推论的最佳自主赛车轨迹的基础。我们引入了轨迹采样机构，并将其与过滤过程相结合，该过程能够将汽车推向其物理驾驶极限。 DBF的性能在深度序列的一级模拟环境中进行了评估，并将其与其他几种轨迹合成方法以及人类驾驶性能进行了比较。 DBF通过将赛车推到其控制范围的同时，同时始终保持在轨道范围内，从而达到了最快的圈时间和最快的速度。

translated by 谷歌翻译